7.4 随机向量的互依性

#PCA #Eigenvalue #Eigenvector #LagrangeMethod #CovarianceMatrix

我们认为随机向量的各个分量是相互联系的, 而不是自变量、因变量那种单方面依赖性. 我们希望从一组数据中看出其中起作用的指标, 以此来进行降维.

1 主成分分析

考虑随机向量 $X = (X_{1}, \dots, X_{p})^{T}$ , 对它做正交变换. 令 $Y = U^{T} X$ , $U$ 是正交阵, 希望 $Y$ 的协方差阵简单, 如对角阵, 此时容易衡量 $Y$ 各个分量的作用.
现在假设 $X$ 的总体二阶矩已知. 设 $Cov X = Σ$ . 则 $\begin{matrix} (1.1) & Cov Y = U^{T} Cov X U = U^{T} Σ U = Λ, \end{matrix}$ 这里 $Λ = diag (λ_{1}, \dots, λ_{p})$ , $λ_{1} \geq \dots \geq λ_{p} = 0$ . 如果 $rank Σ = r$ , 则 $λ_{r} > λ_{r + 1} = 0$ , 这里 $λ_{i}$ 是 $Σ$ 的特征值. 记 $U = (u_{1}, \dots, u_{r}, u_{r + 1}, \dots, u_{p})$ , 则 $u_{i}$ 是 $Σ$ 对应 $λ_{i}$ 的特征向量: $Σ u_{i} = λ_{i} u_{i}$ .

主成分

设 $X$ 是 $p$ 维随机向量, $U$ 正交, $Y = U^{T} X$ 协方差如 (1.1), 则称 $y_{i}$ 位 第 $i$ 个主成分, $\frac{λ_{i}}{\sum_{i = 1}^{r} λ_{i}}$ 是对应的贡献率, $\frac{\sum_{i = 1}^{k} λ_{i}}{\sum_{i = 1}^{r} λ_{i}}$ 是前 $k$ 个主成分的累计贡献率.

由于 $Y_{i} = u_{i}^{T} X$ , 所以主成分对应 $Σ$ 的一个特征向量. $Y_{i}$ 的方差 $Var (Y_{i}) = u_{i}^{T} Σ u_{i} = λ_{i}$ 反映了 $Y_{i}$ 的变异. 由于 $\tilde{Y} = (Y_{1}, \dots, Y_{r})^{T}$ 的分量互不相关, $\tilde{Y}$ 的变异由 $λ_{1}, \dots, λ_{r}$ 反映, 贡献率的概念刻画了 $Y_{i}$ 的变异的地位; 如果累计贡献率已经接近 $100 %$ , 则后面的那些主成分就可以直接舍去, 从而将问题从 $p$ 维降到 $k$ 维. 一般地, 设定门槛为 $85 %$ .

我们有另一种理论解释 $X$ 的信息为什么在 $X$ 的 $r$ 个主成分里. 考虑 $X_{j}$ 的线性预测 $b_{1}^{T} X, \dots, b_{k}^{T} X$ 满足非退化条件^[1], 要求预测的均方误差最小: $t_{j} (B^{T} X) = min_{β \in R^{k}} E (X_{j} - β^{T} B X)^{2}, j = 1, \dots, p .$ 我们有

定理 1.1

设 $u_{1}^{T} X, \dots, u_{k}^{T} X$ 是关于 $X$ 的前 $k$ 个主成分. 记 $U_{1} = (u_{1}, \dots, u_{r})$ , 则 $\sum_{j = 1}^{p} t_{j} (U_{1}^{T} X) = min_{rank B = k} \sum_{j = 1}^{p} t_{j} (B^{T} X) .$

证明

由这个定理, $t_{j} (B^{T} X) = Var (X_{j}) - Cov (X_{j}, B^{T} X) (B^{T} Σ B)^{- 1} Cov (X_{j}, B^{T} X)^{T},$ 因此 $\sum_{j = 1}^{p} t_{j} (B^{T} X) = tr Σ - tr (Σ B (B^{T} Σ B)^{- 1} B^{T} Σ) .$ 因此只需要证 $tr (Σ U_{1} (U_{1}^{T} Σ U_{1})^{- 1} U_{1}^{T} Σ) = max_{rank B = k} tr (Σ B (B^{T} Σ B)^{- 1} B^{T} Σ) .$
注意到 $tr (Σ U_{1} (U_{1}^{T} Σ U_{1})^{- 1} U_{1}^{T} Σ) = tr (U_{1} Λ_{k} Λ_{k}^{- 1} Λ_{k} U_{1}^{T}) = tr (U_{1} Λ_{k} U_{1}^{T}) = \sum_{i = 1}^{k} λ_{i},$ 其中 $Λ_{k} = diag (λ_{1}, \dots, λ_{k})$ . 由于 $Σ^{\frac{1}{2}} B (B^{T} Σ B)^{- 1} B^{T} Σ^{\frac{1}{2}}$ 是到 $Im (Σ^{\frac{1}{2}} B)$ 的正投影阵, 由这里: $\exists V$ (正交) 的前 $k$ 列 $V_{1}$ : $Σ^{\frac{1}{2}} B (B^{T} Σ B)^{- 1} B^{T} Σ^{\frac{1}{2}} = V_{1} V_{1}^{T}, V_{1}^{T} V_{1} = I_{k},$ 于是 $tr (Σ B (B^{T} Σ B)^{- 1} B^{T} Σ) = tr (Σ^{\frac{1}{2}} V_{1} V_{1}^{T} Σ^{\frac{1}{2}}) = tr (V_{1}^{T} Σ V_{1}) .$
根据这里, $max_{V_{1}^{T} V_{1} = I_{k}} tr (V_{1}^{T} Σ V_{1}) = \sum_{i = 1}^{k} λ_{i}$ , 在 $V_{1} = U_{1}$ 时达到.

记 $\tilde{X} = U_{1} \tilde{Y}$ , 这里 $\tilde{Y} = (Y_{1}, \dots, Y_{k})^{T}$ , 我们有 $\begin{aligned} {\tilde{X}}_{i} = \sum_{j = 1}^{k} u_{i j} Y_{j}, Var ({\tilde{X}}_{i}) = \sum_{j = 1}^{k} u_{i j}^{2} λ_{j} \\ \Rightarrow & X_{i} = \sum_{j = 1}^{p} u_{i j} Y_{j}, Var (X_{i}) = \sum_{j = 1}^{p} u_{i j}^{2} λ_{j} . \end{aligned}$ 从而 ${\tilde{X}}_{i}$ 的方差是 $X_{i}$ 方差的一部分, 所占比例为 $\frac{\sum_{j = 1}^{k} u_{i j}^{2} λ_{j}}{\sum_{j = 1}^{p} u_{i j}^{2} λ_{j}}$ . 这里看出 $u_{i j}^{2}$ 同样影响显著, 称 $u_{i j}$ 为 $X_{i}$ 在 $Y_{j}$ 上的载荷.

应用中, 考虑标准化主成分, 也即让 $Y_{i}$ 除以标准差 $\sqrt{λ_{i}}$ , 使 $Var (\frac{Y_{i}}{\sqrt{λ_{i}}}) = 1$ . 记 $f_{i \cdot} = \frac{Y_{i}}{\sqrt{λ_{i}}}$ , 则 $Cov f = I_{k}$ . 由 $\tilde{X} = U_{1} (\begin{matrix} \sqrt{λ_{1}} & 0 \\ ⋱ \\ 0 & \sqrt{λ_{k}} \end{matrix}) f = U_{1} Λ^{\frac{1}{2}} f,$ 可得 $X_{i}$ 在标准化主成分 $f_{j}$ 上到载荷为 $u_{i j} \sqrt{λ_{j}}$ . 记 $a_{i j} = u_{i j} \sqrt{λ_{j}}$ , 有 $Var ({\tilde{X}}_{i}) = \sum_{j = 1}^{k} a_{i j}^{2}$ , $Var (X_{i}) = \sum_{j = 1}^{p} a_{i j}^{2}$ . 因此对标准化主成分, 载荷的意义更明显. 事实上, $Σ = R$ 是相关矩阵时, $a_{i j} = ρ (X_{i}, Y_{j})$ .
还可以考虑旋转 $f$ , 即以 $k$ 阶正交阵 $Γ$ 去作用. 令 $g = Γ^{T} f$ , 则有 $\tilde{X} = U_{1} Λ^{\frac{1}{2}} Γ g$ , 则 $Var ({\tilde{X}}_{i}) = \sum_{j = 1}^{k} a_{i j}^{2}$ . 但这时 $X_{i}$ 在 $g_{j}$ 上的载荷变为 $b_{i j} = \sum_{t = 1}^{k} a_{i t} γ_{t j},$ 其中 $γ_{i j}$ 是 $Γ$ 的 $(t, j)$ 元. 适当选取 $Γ$ 有利于对问题做出更好的统计解释.

在实际问题中, 改为样本协方差阵 $\hat{Σ}$ 或样本相关矩阵 $\hat{R}$ . 不过此时特征值会变为随机变量, 让推导更加困难.

1.1 几何解释

考虑 $n$ 个观察点 $x_{1}, \dots, x_{n}$ . 取重心 $\frac{1}{n} \sum_{i = 1}^{n} x_{i}$ 为原点, 也即假定 $X = (x_{1}^{T}, \dots, x_{n}^{T})^{T}$ , $x_{i j} - \frac{1}{n} \sum_{k = 1}^{n} x_{i k}$ 代替 $x_{i j}$ , 这样样本协方差阵为 $\frac{1}{n - 1} X^{T} X \equiv \frac{1}{n - 1} C$ . 现在找一条直线过原点, 方向为 $u$ , $u^{T} u = 1$ , 使 $x_{1}, \dots, x_{n}$ 到直线的距离平方和最小. 容易看出 $x_{i}$ 到直线的距离平方为 $x_{i}^{T} x_{i} - x_{i}^{T} u u^{T} x_{i}$ , 因此问题变为极小化 $S_{n} (X, u) \equiv \sum_{i = 1}^{n} (x_{i}^{T} x_{i} - x_{i}^{T} u u^{T} x_{i}) = tr (X^{T} X - u^{T} X^{T} X u),$ 上式的极小值点是 $X^{T} X$ 对应最大特征值的特征向量 $u_{1}$ . 因此 $u_{1}^{T} X$ 适合作为第一主成分.

在 $p = 2$ 时, 容易与线性回归的几何意义作区别.

2 因子分析

假设一个班级的 6 个学生的成绩可以分解成 $x = (\begin{matrix} x_{1} \\ ⋮ \\ x_{6} \end{matrix}) = (\begin{matrix} a_{1} \\ ⋮ \\ a_{6} \end{matrix}) f + (\begin{matrix} ε_{1} \\ ⋮ \\ ε_{6} \end{matrix}) .$ 这里 $f$ 是 $x$ 的公共因子, $ε_{i}$ 是特殊因子. 一般地, $\begin{matrix} (2.1) & x_{p \times 1} = A_{p \times q} f_{q \times 1} + ε, \end{matrix}$ 这样假定是合理的:

$q \leq p$ ,
$Cov (f, ε) = 0$ ,
$Cov f = I_{q}$ , $Cov ε = diag (σ_{1}^{2}, \dots, σ_{p}^{2}) = Δ$ .

现在计算 $Cov x = A A^{T} + Δ$ , 可见 $Var (x_{i}) = \sum_{j = 1}^{q} a_{i j}^{2} + σ_{i}^{2},$ 从而 $x_{i}$ 的方差由两部分组成: 一部分是 $A$ 的第 $i$ 行向量 $a_{(i)}$ 的范数 $| | a_{(i)} | |^{2}$ , 另一部分是第 $i$ 个特殊因子的方差 $σ_{i}^{2}$ . 记 $h_{i}^{2} = | | a_{(i)} | |^{2}$ , 表明公共因子对 $x_{i}$ 的影响大小, 称为贡献.
考虑 $f_{j}$ 对 $x$ 的影响, 记 $g_{j}^{2} = \sum_{i = 1}^{p} a_{i j}^{2}$ , 称 $g_{j}^{2}$ 是 $f_{j}$ 对 $x$ 的贡献. 与 PCA 类似, $a_{i j}$ 是 $x_{i}$ 在 $f_{j}$ 上的载荷.
使 $g_{j}^{2}$ 最大的 $f_{j}$ 是最重要的公共因子, 使 $h_{i}^{2}$ 最大的 $x_{i}$ 是最依赖公共因子的指标. 而载荷 $a_{i j}$ 在 $Var (x_{i}) = Var (f_{i}) = 1$ 时恰好为 $ρ (x_{i}, f_{j})$ . 实际工作中, 希望载荷更加集中. 习惯上称 $A$ 为载荷矩阵. 方便起见, 假设 $g_{1}^{2} \geq \dots \geq g_{q}^{2}$ .

2.1 载荷矩阵的求法

假设 $x$ 已经标准化, 每个分量方差为 $1$ , $Cov x = R$ 是相关矩阵. 假设 $R, Δ$ 已知, 称 $R_{*} = R - Δ = A A^{T}$ 为约相关阵. 此时要求 $R_{*} \geq 0$ . 利用谱分解: $R_{*} = \sum_{j = 1}^{r} λ_{j} u_{j} u_{j}^{T}, r = rank R_{*},$ 其中 $u_{j}$ 是 $R_{*}$ 对应 $λ_{j}$ 的规范化特征向量, $λ_{1} \geq \dots \geq λ_{r} > 0$ . 于是取 $a_{j} = \sqrt{λ_{j}} u_{j} \Rightarrow A = (a_{1}, \dots, a_{q}) .$ 这样的 $A$ 还满足 $A^{T} A = diag (λ_{1}, \dots, λ_{q})$ : $g_{j}^{2} = λ_{j}$ .

在上述情形下, 因子分析和主成分分析看似没啥区别, 但是主成分分析是找 $R$ 的前 $k$ 个特征向量, 而在因子分析中则从 $R_{*}$ 出发.

接下来用 $R_{*} = A A^{T}$ 来求 $A$ . 根据这里, 如果 $B B^{T} = A A^{T}$ , 则 $B = A Γ$ . 这里 $Γ$ 是 $q$ 维正交阵, 因此 $Im (A)$ 唯一, 称为因子空间, 且任一解都可以由上面已经求得的 $A$ 经过旋转得到, 此时贡献 $h_{i}^{2}$ 不改变, 但因子本身 $g_{j}^{2}$ 会改变. 此时把模型 (2.1) 记为 $\begin{matrix} (2.2) & x = (A Γ) (Γ^{T} f) + ε = B y + ε, \end{matrix}$ 这里 $y = Γ^{T} f$ . 类似主成分分析, 我们希望各个因子的贡献"分散", 也即较多载荷接近零, 这样可以实现降维. 注意到 $\sum_{j = 1}^{q} g_{j}^{2} = tr (A A^{T})$ 不受旋转影响, 因此贡献的分散程度可以由各个列的样本方差体现. 例如 $q = 2$ , $B = A Γ = (\begin{matrix} b_{11} & b_{12} \\ ⋮ & ⋮ \\ b_{p 1} & b_{p 2} \end{matrix})$ . 为了消除符号不同的影响, 考虑 $\frac{b_{i j}^{2}}{h_{i}^{2}}$ 代替 $b_{i j}$ . 令 $\begin{aligned} S_{j} & = \frac{1}{p} \sum_{i = 1}^{p} {(\frac{b_{i j}^{2}}{h_{i}^{2}} - \frac{1}{p} \sum_{i = 1}^{p} \frac{b_{i j}^{2}}{h_{i}^{2}})}^{2}, j = 1, 2, \\ S & = S_{1} + S_{2} . \end{aligned}$
寻求 $Γ$ , 使 $S$ 极大化, 这样旋转称为方差最大的正交旋转.

3 典型相关

现在讨论两个随机向量的互依性. 回忆我们引入了相关系数的概念来刻画两个随机变量的互依性; 引入了多重相关系数来刻画 $Y, X$ 的线性依赖性: $ρ_{Y, X} = max ρ (Y, a^{T} X)$ . 现在对于两个随机向量, 进行推广

典型相关系数

设 $X = (X_{1}, \dots, X_{p})^{T}$ , $Y = (Y_{1}, \dots, Y_{q})^{T}$ 是两个随机向量, $a^{T} X, b^{T} Y$ 是两个线性函数, 方差都是 $1$ . 记相关系数 $ρ (a^{T} X, b^{T} Y)$ . 如果 $Var (a_{1}^{T} X) = Var (b_{1}^{T} Y) = 1$ , 且 $ρ (a_{1}^{T} X, b_{1}^{T} Y) = max_{Var (a^{T} X) = Var (b^{T} Y) = 1} ρ (a^{T} X, b^{T} Y),$ 则 $ρ (a_{1}^{T} X, b_{1}^{T} Y)$ 是 $X, Y$ 的典型相关系数, $a_{1}^{T} X, b_{1}^{T} Y$ 是 $X, Y$ 的典型相关变量. 简记 $ρ_{1} = ρ (a_{1}^{T} X, b_{1}^{T} Y)$ .

从实际看, $ρ_{1}$ 反映了 $X, Y$ 综合指标的最大相关程度.

如果知道 $X, Y$ 的联合二阶矩, 容易推导典型相关系数/变量. 设 $Cov (\begin{matrix} X \\ Y \end{matrix}) = (\begin{matrix} Σ_{X X} & Σ_{X Y} \\ Σ_{Y X} & Σ_{Y Y} \end{matrix}), Σ_{X X}, Σ_{Y Y} > 0,$ 则 $ρ (a^{T} X, b^{T} Y) = a^{T} Σ_{X Y} b = b^{T} Σ_{Y X} a .$ 下面用 Lagrange 乘子法求解: 令 $φ (a, b) = a^{T} Σ_{X Y} b - \frac{λ}{2} (a^{T} Σ_{X X} a - 1) - \frac{μ}{2} (b^{T} Σ_{Y Y} b - 1),$ 则 $\begin{array}{r} {\begin{aligned} \frac{\partial φ}{\partial a} = {(\frac{\partial φ}{\partial a_{1}}, \dots, \frac{\partial φ}{\partial a_{p}})}^{T} = Σ_{X Y} b - λ Σ_{X X} a, \\ \frac{\partial φ}{\partial b} = {(\frac{\partial φ}{\partial b_{1}}, \dots, \frac{\partial φ}{\partial b_{q}})}^{T} = Σ_{Y X} a - μ Σ_{Y Y} b . \end{aligned} \end{array}$
令 $\frac{\partial φ}{\partial a} = 0$ , $\frac{\partial φ}{\partial b} = 0$ , 则 $λ = μ = a^{T} Σ_{X Y} b \equiv ρ$ , 且 $\begin{aligned} W_{1} a & = Σ_{X X}^{- 1} Σ_{X Y} Σ_{Y Y}^{- 1} Σ_{Y X} a = ρ^{2} a, \\ W_{2} a & = Σ_{Y Y}^{- 1} Σ_{Y X} Σ_{X X}^{- 1} Σ_{X Y} b = ρ^{2} b . \end{aligned}$
由这里, $W_{1}, W_{2}$ 有相同非零特征值. 上式表明 $ρ^{2}$ 是它们的特征值, 格子有对应的特征向量 $a, b$ . 设 $W_{1}, W_{2}$ 非零特征值个数为 $r$ (包括重数), 则 $φ (a, b)$ 有 $r$ 个稳定点, $r$ 个局部极值 $| ρ_{1} | \geq \dots \geq | ρ_{r} | > 0$ . 这里 $| ρ_{1} |$ 就是我们要求的典型相关系数, 对应的 $a_{1}, b_{1}$ 给出了典型相关变量 $a_{1}^{T} X, b_{1}^{T} Y$ (注意我们约定了 $Var (a_{1}^{T} X) = Var (b_{1}^{T} Y) = 1$ ). 这里 $a_{1}, b_{1}$ 除了方向相反, 可以确定, 一般典型相关系数取正值.
实际应用中, 我们考虑多个综合指标. 第 $i$ 组就是 $| ρ_{i} |$ , $a_{i}^{T} X, b_{i}^{T} Y$ .

可以在 $a_{1}, \dots, a_{r}$ 后添加 $a_{r + 1}, \dots, a_{p}$ , 使 ${Σ^{\frac{1}{2}} a_{1}, \dots, Σ^{\frac{1}{2}} a_{p}}$ 是 $Σ^{\frac{1}{2}} W_{1} Σ^{- \frac{1}{2}}$ 的正交规范化特征向量集, 类似有 $b_{r + 1}, \dots, b_{q}$ . 记 $A = (a_{1}, \dots, a_{p})$ , $B = (b_{1}, \dots, b_{q})$ , 有 $\begin{aligned} Cov (A^{T} X) & = A^{T} Σ_{X X} A = I_{p}, \\ Cov (B^{T} X) & = B^{T} Σ_{Y Y} B = I_{q} . \end{aligned}$ 由于 $a_{i}^{T} Σ_{X Y} b_{j} = ρ_{j} a_{i}^{T} Σ_{X X} a_{i} = 0$ , 又有 $Cov (A^{T} X, B^{T} Y) = Δ$ . 除了主对角元 $ρ_{1}, \dots, ρ_{r}$ 外, 其余皆为 $0$ , 从而 $\begin{matrix} (3.1) & Cov (\begin{matrix} A^{T} X \\ B^{T} Y \end{matrix}) = (\begin{matrix} I_{p} & Δ \\ Δ^{T} & I_{q} \end{matrix}) . \end{matrix}$ 因此寻求典型变量实际上就是线性变换原变量, 得到简单的协方差结构.
实际应用中, 可以抛弃较小的 $ρ_{i}$ , 设较大的为前 $k$ 组. 记 $A_{1}, B_{1}$ 是对应的前 $k$ 列, 则可以用 $A_{1}^{T} X, B_{1}^{T} Y$ 来近似反映.

另一个统计解释是, 用 $Y$ 的线性函数预测 $a_{i}^{T} X$ .. 使得均方误差最小的线性预测是 $\hat{a_{i}^{T} X} = a_{i}^{T} E X - ρ_{i} b_{i}^{T} E Y + ρ_{i} b_{i}^{T} Y .$ 事实上, 设 $C_{0} + C^{T} Y$ 是想求的预测. 由 (1.2), $\begin{matrix} (3.2) & \hat{a_{i}^{T} X} = a_{i}^{T} E X - a_{i}^{T} Σ_{X Y} Σ_{Y Y}^{- 1} E Y + a_{i}^{T} Σ_{X Y} Σ_{Y Y}^{- 1} Y . \end{matrix}$ 由于 $Σ_{Y X} a_{i} = ρ_{i} Σ_{Y Y} b_{i}$ , 从而得到 (3.2).

典型变量的一个应用是给出 $X, Y$ 的公共因子, 即 $\exists Z$ : ${\begin{aligned} X = C_{1} Z + ε_{1}, \\ Y = C_{2} Z + ε_{2}, \end{aligned}$ 且有 $Cov (Z, ε_{1}) = 0, Cov (Z, ε_{2}) = 0, Cov (ε_{1}, ε_{2}) = 0 .$
事实上可取 $Z = A_{1}^{T} X$ , $A_{1}$ 是 $A$ 的前 $r$ 列, $B_{1}$ 是 $B$ 的前 $r$ 列. 注意到 $A^{T} Σ_{X X} A = I_{p}$ , $B^{T} Σ_{Y Y} B = I_{q}$ , 有 $Σ_{X X} A A^{T} = I_{p}, Σ_{Y Y} B B^{T} = I_{q} .$
因此如果记 $Λ = Cov (A_{1}^{T} X, B_{1}^{T} Y)$ , 有 $\begin{aligned} X & = Σ_{X X} A A^{T} X = Σ_{X X} A_{1} A_{1}^{T} X + Σ_{X X} A_{2} A_{2}^{T} X, \\ Y & = Σ_{Y Y} B_{1} B_{1}^{T} Y + Σ_{Y Y} B_{2} B_{2}^{T} Y \\ = Σ_{Y Y} B_{1} B_{1}^{T} Λ A_{1}^{T} X + Σ_{Y Y} B_{1} B_{1}^{T} (Y - Λ A_{1}^{T} X) + Σ_{Y Y} B_{2} B_{2}^{T} Y . \end{aligned}$
记 $Z = A_{1}^{T} X$ , $C_{1} = Σ_{X X} A_{1}$ , $C_{2} = Σ_{Y Y} B_{1} B_{1}^{T} Λ$ , $ε_{1} = Σ_{X X} A_{2} A_{2}^{T} X$ , $ε_{2} = Σ_{Y Y} B_{1} B_{1}^{T} (Y - Λ A_{1}^{T} X) + Σ_{Y Y} B_{2} B_{2}^{T} Y$ , 就有 $X, Y$ . 并且容易验算

\begin{aligned} Cov (A_{1}^{T} X, Σ_{X X} A_{2} A_{2}^{T} X) = A_{1}^{T} Σ A_{2} A_{2}^{T} Σ_{X X} = 0, \\ Cov (A_{1}^{T} X, ε_{2}) = A_{1}^{T} Σ_{X Y} B_{1} B_{1}^{T} Σ_{Y Y} - A_{1}^{T} Σ_{X X} A_{1} Λ B_{1}^{T} Σ_{Y Y} + 0 \\ = Λ B_{1}^{T} Σ_{Y Y} - Λ B_{1}^{T} Σ_{Y Y} = 0, \\ Cov (ε_{1}, ε_{2}) = Cov (Σ_{X X} A_{2} A_{2}^{T} X, Y - Σ_{Y Y} B_{1} B_{1}^{T} Λ A_{1} X) = 0, \end{aligned}

故 $Z$ 是 $X, Y$ 的公共因子.

之前的旋转因子法在典型相关中不适用, 因为任何旋转都会破坏 (3.1).

也即如果 $B = (b_{1}, \dots, b_{k})$ , 则 $Cov (B^{T} X) = B^{T} Σ B > 0$ . ↩︎